Analyse discriminante sur données binaires lorsque les populations d'apprentissage et de test sont différentes

نویسندگان

  • Julien Jacques
  • Christophe Biernacki
چکیده

Résumé. L’analyse discriminante généralisée suppose que l’échantillon d’apprentissage et l’échantillon test, qui contient les individus à classer, sont issus d’une même population. Lorsque ces échantillons proviennent de populations pour lesquelles les paramètres des variables descriptives sont différents, l’analyse discriminante généralisée consiste à adapter la règle de classification issue de la population d’apprentissage à la population test, en estimant un lien entre ces deux populations. Ce papier étend les travaux existant dans un cadre gaussien au cas des variables binaires. Afin de relever le principal défi de ce travail, qui consiste à déterminer un lien entre deux populations binaires, nous supposons que les variables binaires sont issues de la discrétisation de variables gaussiennes latentes. Une méthode d’estimation et des tests sur simulations sont présentés, puis des applications dans des contextes biologique et d’assurance illustrent ce travail.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Modèles de mélanges topologiques pour la classification de données catégorielles et mixtes

Résumé. Cet article présente une méthode basée sur les cartes auto-organisatrices probabilistes dédiées à la classification non supervisée et la visualisation de données catégorielles et des données mixtes contenant des composantes quantitatives et binaires. Pour chacun de ces types de données, nous proposons un formalisme probabiliste dans lequel les unités de la carte topologique sont représe...

متن کامل

Analyse statistique de comportements d'apprenants utilisant des Environnements Numériques d'Apprentissage - Analyse de cas en Comptabilité-Gestion-Finance

Introduction.On constate une explosion sur le marché de solution dite d'e-Learning à des fina-lités de formation dans des contextes scolaires ou professionnels Depover et Marchan (2002). Avec les technologies actuelles, il est important de prendre en compte la différenciation in-dividuelle, qu'elle soit cognitive, affective, socioculturelle ou qu'elle ai lieu dans l'utilisation des stratégies d...

متن کامل

Carte auto-organisatrice probabiliste sur données binaires

Résumé. Les méthodes factorielles d’analyse exploratoire statistique définissent des directions orthogonales informatives à partir d’un ensemble de données. Elles conduisent par exemple à expliquer les proximités entre individus à l’aide d’un groupe de variables caractéristiques. Dans le contexte du datamining lorsque les tableaux de données sont de grande taille, une méthode de cartographie sy...

متن کامل

De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles

Résumé. Un des défis actuels dans le domaine de la classification supervisée de documents est de pouvoir produire un modèle fiable à partir d’un faible volume de données. Avec un volume conséquent de données, les classifieurs fournissent des résultats satisfaisants mais les performances sont dégradées lorsque celui-ci diminue. Nous proposons, dans cet article, de nouvelles méthodes de pondérati...

متن کامل

Méthodes à noyaux appliquées aux textes structurés

Résumé. Cet article ébauche un état de l’art sur l’utilisation des noyaux pour le traitement des données structurées. Les applications modernes de la fouille de données sont de plus en plus confrontés à des données structurées, notamment textuelles. Les algorithmes d’apprentissage doivent donc être capables de tirer parti des informations apportées par la structure, ce qui pose d’intéressants p...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005